We construct a universally Bayes consistent learning rule that satisfies differential privacy (DP). We first handle the setting of binary classification and then extend our rule to the more general setting of density estimation (with respect to the total variation metric). The existence of a universally consistent DP learner reveals a stark difference with the distribution-free PAC model. Indeed, in the latter DP learning is extremely limited: even one-dimensional linear classifiers are not privately learnable in this stringent model. Our result thus demonstrates that by allowing the learning rate to depend on the target distribution, one can circumvent the above-mentioned impossibility result and in fact, learn \emph{arbitrary} distributions by a single DP algorithm. As an application, we prove that any VC class can be privately learned in a semi-supervised setting with a near-optimal \emph{labeled} sample complexity of $\tilde{O}(d/\varepsilon)$ labeled examples (and with an unlabeled sample complexity that can depend on the target distribution).
translated by 谷歌翻译
We present the UC$^3$RL algorithm for regret minimization in Stochastic Contextual MDPs (CMDPs). The algorithm operates under the minimal assumptions of realizable function class, and access to offline least squares and log loss regression oracles. Our algorithm is efficient (assuming efficient offline regression oracles) and enjoys an $\widetilde{O}(H^3 \sqrt{T |S| |A|(\log (|\mathcal{F}|/\delta) + \log (|\mathcal{P}|/ \delta) )})$ regret guarantee, with $T$ being the number of episodes, $S$ the state space, $A$ the action space, $H$ the horizon, and $\mathcal{P}$ and $\mathcal{F}$ are finite function classes, used to approximate the context-dependent dynamics and rewards, respectively. To the best of our knowledge, our algorithm is the first efficient and rate-optimal regret minimization algorithm for CMDPs, which operates under the general offline function approximation setting.
translated by 谷歌翻译
最近有很多不可能的结果表明,在与对抗对手的马尔可夫游戏中最小化的遗憾在统计学上和计算上是棘手的。然而,这些结果都没有排除在所有各方采用相同学习程序的假设下,遗憾最小化的可能性。在这项工作中,我们介绍了第一种(据我们所知)在通用马尔可夫游戏中学习的算法,该算法在所有代理商执行时提供了sublinear后悔保证。我们获得的边界是为了置换遗憾,因此,在此过程中,意味着融合了相关的平衡。我们的算法是分散的,计算上有效的,并且不需要代理之间的任何通信。我们的主要观察结果是,在马尔可夫游戏中通过策略优化的在线学习基本上减少了一种加权遗憾的最小化形式,而未知权重由代理商的策略顺序的路径长度确定。因此,控制路径长度会导致加权的遗憾目标,以提供足够的适应性算法提供统一的后悔保证。
translated by 谷歌翻译
我们使用访问离线最小二乘回归甲骨文的访问权限,在最低可及性假设下为随机上下文MDP提供了遗憾的最小化算法。我们分析了三个不同的设置:在该动力学的位置,动力学是未知的,但独立于上下文和最具挑战性的设置,而动力学是未知和上下文依赖性的。对于后者,我们的算法获得$ \ tilde {o} \ left(\ max \ {h,{1}/{p_ {min}}} \} \} t \ log(\ max \ {| \ mathcal {f} |,| \ mathcal {p} | \}/\ delta)} \ right)$ hearse bunder bund bund bund bund bund bund bund bunging bund bunger,probinality $ 1- \ delta $,其中$ \ mathcal { P} $和$ \ Mathcal {f} $是用于分别近似动态和奖励的有限且可实现的函数类,$ p_ {min} $是最小可及性参数,$ s $是一组状态,$ a $ a $一组动作,$ h $ the Horizo​​n和$ t $情节数。据我们所知,我们的方法是使用一般函数近似的上下文MDP的第一种乐观方法(即,在没有其他有关功能类别的知识的情况下,例如线性等)。此外,我们还提供$ \ omega的下限即使在已知的动态情况下,也会产生预期的遗憾。
translated by 谷歌翻译
Epsilon-Greedy,SoftMax或Gaussian噪声等近视探索政策在某些强化学习任务中无法有效探索,但是在许多其他方面,它们的表现都很好。实际上,实际上,由于简单性,它们通常被选为最佳选择。但是,对于哪些任务执行此类政策成功?我们可以为他们的有利表现提供理论保证吗?尽管这些政策具有显着的实际重要性,但这些关键问题几乎没有得到研究。本文介绍了对此类政策的理论分析,并为通过近视探索提供了对增强学习的首次遗憾和样本复杂性。我们的结果适用于具有有限的Bellman Eluder维度的情节MDP中的基于价值功能的算法。我们提出了一种新的复杂度度量,称为近视探索差距,用Alpha表示,该差距捕获了MDP的结构属性,勘探策略和给定的值函数类别。我们表明,近视探索的样品复杂性与该数量的倒数1 / alpha^2二次地量表。我们通过具体的例子进一步证明,由于相应的动态和奖励结构,在近视探索成功的几项任务中,近视探索差距确实是有利的。
translated by 谷歌翻译
可解释性是强化学习系统可信度的重要组成部分。但是,可解释性可能以绩效恶化为代价,导致许多研究人员建立复杂的模型。我们的目标是分析可解释性的成本。我们表明,在某些情况下,人们可以在保持其最优性的同时实现政策可解释性。我们专注于从增强学习中的经典问题:$ \ mathbb {r}^d $中的$ k $障碍物的迷宫。我们证明了一个小型决策树的存在,在每个内部节点和深度$ o(\ log k + 2^d)$上具有线性函数,代表最佳策略。请注意,对于不断$ d $的有趣情况,我们有$ o(\ log k)$ depth。因此,在这种情况下,没有准确的截止性权衡。为了证明这一结果,我们使用了一种新的“压缩”技术,该技术可能在其他设置中很有用。
translated by 谷歌翻译
We study learning contextual MDPs using a function approximation for both the rewards and the dynamics. We consider both the case that the dynamics dependent or independent of the context. For both models we derive polynomial sample and time complexity (assuming an efficient ERM oracle). Our methodology gives a general reduction from learning contextual MDP to supervised learning.
translated by 谷歌翻译
我们研究随机梯度下降(SGD)在多大程度上被理解为“常规”学习规则,该规则通过获得良好的培训数据来实现概括性能。我们考虑基本的随机凸优化框架,其中(一通道,无需替代)SGD在经典上是众所周知的,可以最大程度地降低人口风险,以$ o(1/\ sqrt n)$ $ O(1/\ sqrt n)$,并且出人意料地证明,存在问题实例SGD解决方案既表现出$ \ omega(1)$的经验风险和概括差距。因此,事实证明,从任何意义上讲,SGD在算法上都不是稳定的,并且其概括能力不能通过均匀的收敛性或任何其他当前已知的概括性结合技术来解释(除了其经典分析外)。然后,我们继续分析与替代SGD密切相关的相关性,为此我们表明不会发生类似现象,并证明其人口风险实际上确实以最佳速度融合。最后,我们在没有替换SGD的背景下解释了我们的主要结果,用于有限的和凸优化问题,并得出多上类别制度的上限和下限,从而在先前已知的结果上有了显着改善。
translated by 谷歌翻译
我们认为一个面对买家的卖家,他们有能力推迟他们的决定,我们称之为耐心。每种买家的类型都由价值和耐心组成,并采样了I.I.D。来自分布。卖方使用张贴的价格,希望从销售给买方来最大化她的收入。在本文中,我们将此环境正式化,并描述了由此产生的Stackelberg平衡,卖方首先承诺她的策略,然后买家最能做出回应。在此之后,我们展示了如何计算最佳纯和混合策略。然后,我们考虑一个学习环境,卖方无法通过购买者的类型访问分销。我们的主要结果是以下内容。我们通过计算此设置的脂肪震动维度来得出一个用于学习近似最佳纯策略的样本复杂性。此外,我们为近似最佳混合策略提供了一般的样本复杂性。我们还考虑在线环境,并在最佳纯策略和最佳混合策略方面获得了消失的遗憾。
translated by 谷歌翻译
训练数据的量是决定学习算法的概括能力的关键因素之一。直观地,人们期望随着训练数据的增加,错误率将降低。也许令人惊讶的是,自然尝试正式化这种直觉引起了有趣且具有挑战性的数学问题。例如,在他们关于模式识别的古典书籍中,Devroye,Gyorfi和Lugosi(1996)询问是否存在{单调}贝叶斯一致的算法。这个问题一直开放25年以上,直到最近Pestov(2021)使用单调贝叶斯一致算法的复杂构造解决了该问题进行二进制分类。我们得出了多类分类的一般结果,表明每个学习算法A都可以转换为具有相似性能的单调。此外,转换是有效的,仅使用黑盒甲骨文访问A。 Loog(2019),Viering and Loog(2021)和Mhammedi(2021)。我们的转换很容易意味着在各种情况下单调学习者:例如,它将Pestov的结果扩展到具有任意数量的标签的分类任务。这与针对二进制分类量身定制的Pestov的工作形成鲜明对比。另外,我们在单调算法的误差上提供统一的边界。这使我们的转换适用于无分销设置。例如,在PAC学习中,这意味着每个可学习的课程都接受单调PAC学习者。这通过Viering,Mey和Loog(2019)解决了问题; Viering and Loog(2021); Mhammedi(2021)。
translated by 谷歌翻译